Apresentação elaborada com Quarto (e CSS), via R (mas disponível também em Python, com mesma lógica e sintaxe). Em sua maioria, as figuras são interativas, de modo que ao passar o cursor por uma observação é possível acessar mais informações da mesma.
Características Gerais
Inicialmente, a base de dados de empréstimos possuía 1.938 observações e 14 variáveis. No entanto, 16 registros estavam sem informação e, portanto, foram removidos. Em relação as 1.922 observações restantes, é interessante realizar uma análise exploratória inicial, com intuito entender as principais características da amostra.
Quantos empréstimos foram realizadas por Unidade Federativa? Quais os principais representantes no portfólio?
Ao realizar o recorte por Unidade Federativa, vemos que cerca de 51,9% das operações estão concentradas nos estados de São Paulo (36,8%), com destaque, Rio de Janeiro (7,6%) e Minas Gerais (7,5%). Ao todo, oito Unidades Federativas (de vinte e sete) representam aproximadamente 75% do número total de emprésitmos, majoritariamente distribuídos nas regiões Sul e Sudeste do país.
- Análise semelhante pode ser feita através do recorte de setor econômico. Nesse caso, Varejo (37,1%), Serviços de Alojamento/Alimentação (9,2%) e Serviços Administrativos (7,5%) representam cerca de 53,8% da amostra. Em torno de 75% das observações estão condensadas em apenas sete setores econômicos, dentre os vinte e cinco presentes.
Acima, houve uma breve análise das variáveis categóricas. Na sequência, cabe visualizar a distribuição das variáveis numéricas, principalmente com intuito de identificar possíveis outliers. Na figura abaixo, com exceção de score de crédito (pontos), prazo (meses), atraso corrente (dias) e taxa (percentual), todas as outras variáveis possuem como unidade R$ mil.
Podemos perceber que as instituições da amostra possuem um risco relativamente alto de inadimplência, dado o acúmulo de scores de crédito abaixo de 500 pontos. O faturamento mensal informado mediano é de R$ 60 mil, ao passo que a dívida total mediana é de R$ 13 mil; cabe ressaltar que essas séries possuem alguns outliers, o que pode ser visto facilmente através dos poucos pontos afastados de suas medianas. As informações são suficientes para afirmar que trata-se de uma base com alta presença de pequenas empresas (faturamento anual informado mediano de R$ 720 mil).
O valor mediano dos contratos é de R$ 16,6 mil e, com juros, chega a R$ 19,4 mil. As distribuições são bem semelhantes, como esperado, e ao mesmo tempo mostram que há presença significativa de observações afastadas do valor mediano, sendo necessário avaliação mais cuidadosa para classificá-las como outliers. Os valores modais (isto é, mais recorrentes) para taxa de juros e prazo são 5,1% e 12,6 meses, respectivamente.
Cerca de 75% das observações possuem valor aberto inferior a R$ 3 mil, sendo que a maioria não possui débito pendente. Além disso, não há atraso corrente para a maioria das operações; no entanto, quando ocorre, alcança tempo próximo de 1.200 dias (~3,3 anos).
| Variável | 0% | 25% | 50% | 75% | 100% |
|---|---|---|---|---|---|
| Faturamento Informado | 6.0 | 30.0 | 60.0 | 120.0 | 11000.0 |
| Dívida Total | 0.0 | 0.0 | 13.0 | 78.8 | 21330.0 |
| Score | 0.0 | 270.0 | 388.0 | 517.0 | 997.0 |
| Taxa | 3.1 | 4.4 | 4.8 | 5.2 | 7.1 |
| Atraso Corrente | 0.0 | 0.0 | 0.0 | 433.5 | 1767.0 |
| Prazo | 3.1 | 10.5 | 12.6 | 12.6 | 25.2 |
| Valor do Contrato | 1.1 | 10.8 | 16.6 | 32.5 | 137.5 |
| Valor do Contrato + Juros | 1.1 | 11.8 | 19.4 | 35.2 | 164.1 |
| Valor em Aberto | 0.0 | 0.0 | 0.0 | 3.1 | 137.2 |
Por fim, é interessante calcular o ticket, prazo e taxa de juros média das observações. O primeiro é simplesmente o valor médio dos contratos, ao passo que os dois últimos correspondem a média ponderada do prazo e taxa de juros pelo valor dos contratos.
| ticket_medio | prazo_medio | taxa_media |
|---|---|---|
| 24181 | 11.8 | 4.43 |
O ticket médio é de R$ 24 mil, acima do valor mediano. Assim sendo, pode-se dizer que alguns empréstimos detêm valor consideravelmente acima do encontrado para a maioria restante; visualmente, podemos perceber esse detalhe pela parte superior bimodal da distribuição do valor de contrato. Por outro lado, prazo médio e taxa média estão abaixo de seus respectivos valores medianos. Dada a forma de cálculo (média ponderada), pode-se dizer que esse fenônemo ocorre pois os empréstimos de maior volume estão associados à taxas e prazos menores.
Características de Bons e Maus Pagadores
Dos 1.922 empréstimos, 501 (26%) são considerados ‘Bad’, isto é, possuem 180 dias ou mais de atraso corrente. Como bons e maus empréstimos se distribuem por UF e SE?
As mesmas oito UFs representam a maior parcela de empréstimos, tanto para bons quanto para maus pagadores. Observe, no entanto, que há alterações em relação ao ranqueamento geral, principalmente para maus pagadores. Por exemplo, Minas Gerais passa a ter uma frequência relativa de maus pagadores superior a sua participação no total.
O recorte por SE apresenta história semelhante em relação ao ranqueamento. Importante notar que Varejo e Serviços de Alojamento/Alimentação correspondem por metade dos empréstimos com maus pagadores.
Para as variáveis contínuas, nota-se que as distribuições são semelhantes, exceto para o atraso corrente (sendo estadiferença esperada, já que é o que justamente define bons e maus pagadores).
Loss
Pela definição, note que um cliente pode ser considerado ‘bom pagador’ (<180 dias de atraso corrente) e ainda sim possuir Loss > 0. No entanto, isto não ocorre na amostra, ou seja, somente os ‘mau pagadores’ que possuem valor em aberto.
Utilizando o conceito de Loss, podemos ter uma melhor noção das características dos empréstimos que, além de estarem na condição de inadimplência, causam maior dano à instituição. Com esse intuito, a análise subsequente será feita com base no último quartil da distribuição dos valores de Loss. Esses seriam os ‘piores clientes’ (os 25% que mais devem por um período superior a 180 dias). Ao todo, temos 127 operações desse tipo.
- A distribuição por UF segue o mesmo padrão geral e para bons/maus pagadores. Os estados do Rio de Janeiro, São Paulo e Minas Gerais formam o top 3 de valor em aberto como percentual do valor total a receber. Já em relação aos SEs, Varejo e Serviços de Alojamento/Alimentação novamente se destacam; agora, no entanto, o top 3 possui também Indústria de Construção.
A distribuição de variáveis contínuas é mais interessante. É possível notar, por exemplo, que maiores valores em aberto estão relacionados com um maior número de dias correntes em atraso. As outras variáveis contínuas possuem distribuição semelhante à dos empréstimos marcados como ‘Bad’.
Score de Crédito
Existem algumas formas de se criar um indicador. Uma delas, simples, seria definir um método de agregação e atribuir estrutura de ponderação maior para características que se julgam mais determinantes no resultado de interesse; o IDH é um exemplo.
Outra, mais complexa, parte do uso de modelos estatísticos de classificação, como Regressão Logística, por exemplo. É possível determinar, a partir da amostra, como cada característica se relaciona com a probabilidade de dada operação possuir valor em aberto (Loss > 0). Na figura abaixo, a relação novo score vs Loss, considerando que o primeiro é a estimativa de um modelo simples da existência de Loss sendo explicada por efeitos fixos de UF e SE.
Observe que o modelo não é tão poderoso. No entanto, para esse tipo de modelo de classificação talvez seja a melhor especificação com o conjunto de informações disponíveis, dada a semelhança nas distribuições das demais variáveis contínuas.